数据分析

您所在的位置:网站首页 python merge左连接 数据分析

数据分析

2023-04-07 18:31| 来源: 网络整理| 查看: 265

【导语】 学过Excel和MySQL,Pandas后,你会发现它们的都能处理数据,只是实现方式不同罢了,互相能起到互补的作用。那么,在工作中,工具没有好坏之分,只要能解决问题,都是好工具,关键是我们怎么用。那么本篇文章,主要总结在python中如何合并数据,如何利用pandas实现多表连接查询。

一、Pandas合并数据 1、concat()

我们可以通过DataFrame或Series类型的concat方法,来进行连接操作,连接时,会根据索引进行对齐。

axis:指定连接轴,默认为0(上下);1(左右)【axis=0/1】

join:指定连接方式,默认为外连接。【join='outer':并集,join='inner':交集】

keys:可以用来区分不同的数据组,形成层级索引,如:【keys=["df1","df2"])】 join_axes:指定连接结果集中保留的索引。默认全部保留,如:【join_axes=[df1.columns]】 ignore_index:忽略原来连接的索引,创建新的整数序列索引,默认为False sort:concat之后,是否按照列索引排序,sort=True/False df1=pd.DataFrame({"date":[2015,2016,2017,2018,2019],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]}) df2=pd.DataFrame({'date':[2017,2018,2019,2020],"y1":[1000,2000,3000,2000]}) # display(df1,df2) df3=pd.concat([df1,df2],keys=["df1","df2"]) display(df3) #索引层级索引元素时,先外再内 df3.loc["df2",3].loc["y1"] 2、merge()

通过pandas或DataFrame的merge方法,可以进行两个DataFrame的连接,这种连接类似于SQL中对两张表进行的join连接。

how:指定连接方式。可以是inner, outer, left, right,默认为inner。

on:指定连接使用的列(该列必须同时出现在两个DataFrame中,如果指定两个不同列名,可用left_on/right_on),默认使用两个DataFrame中的所有同名列进行连接。 left_index / right_index:是否将左边(右边)DataFrame中的索引作为连接列,默认为False。 suffixes:当两个DataFrame列名相同时,指定每个列名的后缀(用来区分),默认为x与y。 df1=pd.DataFrame({"date":[2015,2016,2017,2018,2019],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]}) df2=pd.DataFrame({'date':[2017,2018,2019,2020],"y1":[1000,2000,3000,2000]}) # display(df1,df2) df3=df1.merge(df2,on="date") display(df3) df1=pd.DataFrame({"date":[2015,2016,2017,2018,2019],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]}) df2=pd.DataFrame({'date':[2017,2018,2019,2020],"y1":[1000,2000,3000,2000]}) # display(df1,df2) df3=df1.merge(df2,how='left',on="date") display(df3) 二、Python合并数据 1、append

在对行进行连接时,也可以使用Series或DataFrame的append方法。append是concat的简略形式,只不过只能在axis=0上进行合并。

df1=pd.DataFrame({"date":[2015,2016,2017,2018,2019],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]}) df2=pd.DataFrame({'date':[2017,2018,2019,2020],"y1":[1000,2000,3000,2000]}) # display(df1,df2) df3=df1.append(df2) display(df3) 2、join

与merge方法类似,但是默认使用索引进行连接。

how:指定连接方式。可以是inner, outer, left, right,默认为left。 on:设置当前DataFrame对象使用哪个列与参数对象的索引进行连接。 lsuffix / rsuffix:当两个DataFrame列名相同时,指定每个列名的后缀(用来区分),如果不指定,列名相同会产生错误。 join与merge类似,都是进行两张表的连接。

不同点:

merge默认进行的内连接(inner),join默认进行的左外连接(left)。 当出现同名字段(列索引)时,merge可以自动补后缀(_x, _y),但是join不会自动补后缀,而是会产生错误。 merge默认使用同名的列进行等值连接。join默认使用左右两表的索引进行连接。 merge中on参数,指定两张表中共同的字段,而join中on参数,仅指定左表中的字段(右表依然使用索引)。 merge与join侧重点不同,merge侧重的是使用字段进行连接,而join侧重的是使用索引进行连接。 df1=pd.DataFrame({"date":[2015,2016,2017,2018,2019],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]}) df2=pd.DataFrame({'date':[2017,2018,2019,2020],"y1":[1000,2000,3000,2000]}) # display(df1,df2) df3=df1.join(df2,how='left',lsuffix='_x',rsuffix='_y') #根据索引对齐 display(df3)

希望本文的内容对大家的学习或者工作能带来一定的帮助,每天进步一点点,加油。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3